FM-IRL: Flow-Matching para modelado de recompensas y regularización en RL Descubre cómo FM-IRL combina Flow-Matching con RL para mejorar la exploración y generalización en políticas de aprendizaje por refuerzo. 2026-06-02 · 2 min